《第10天》YOLOv4解析(一)

2022 iThome 鐵人賽

DAY 10

AI & Data

14th鐵人賽

2212 瀏覽

來源
1.1 簡介：YOLOv3與近年提出的優化策略和演算法組合驗證。
1.2 時程：於2020年4月提出論文。
1.3 論文名稱：YOLOv4: Optimal Speed and Accuracy of Object Detection
模型架構

2.1 Input：輸入圖像與圖像金字塔

2.2 Backbone：通常會使用ImageNet上預訓練的模型，有助於於圖像特徵萃取。如：CSPDarknet53。

2.3 Neck：藉由SPP與PAN，對Backbone萃取的特徵進行組合，達成圖像特徵增強。

2.4 Dense and Sparse Prediction：輸出物件偵測結果，包括「類別、信心水準、物件偵測框」。
優化方法

3.1 Input

3.2 Backbone
- Bag of freebies：CutMix、Mosaic數據增強、DropBlock、Class label smoothing
- Bag of specials：Mish激活函数、CSP、MiWRC
3.3 Neck

3.4 Dense and Prediction
- Bag of freebies：CIoU-loss、CmBN、DropBlock、Mosaic數據增强、圖像縮放旋轉
- Bag of specials：Mish激活函数、SPP、SAM、PAN、DIoU-NMS
優點

4.1 一個推論速度快與準確的物件偵測器。

4.2 僅用一張傳統GPU即可訓練模型與部署應用。

4.3 驗證了Bag-of-Freebies和 Bag-of-Specials對訓練模型影響。

4.4 在不降低計算量的情況下，優化神經網路並行運算。